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Применение нечеткой логики в системах 
фонологической классификации звуков речи 


Статья посвящена вопросу фонологической классификации звуков речи по признакам. Предложен 
нечеткий подход классификации, в соответствии с которым выходные значения классификационных 
блоков представляют собой нечеткие величины. Предложены акустические характеристики, на основе 
которых производятся процедуры фаззификации. Приведены результаты экспериментов разделения 
фонем на классы. 


Введение 


Проблема автоматического распознавания речи не теряет своей актуальности на 
протяжении нескольких десятилетий. За последнее время удалось достичь заметных 
успехов, однако ключевая задача описания речевых единиц не решена однозначно и 
в полной мере. Все современные автоматические системы распознавания речи (АСРР) 
включают модули предобработки и постобработки речевого сигнала [1-3]. В первом мо- 
дуле осуществляется параметризация сигнала — представление сигнала в виде последова- 
тельности компактных векторов признаков. Для этого применяются различные методы 
цифровой обработки сигналов (кепстральная обработка, вейвлеты, линейное предсказа- 
ние); при этом до сих пор не обнаружено пространство их истинно-инвариантных приз- 
наков [2]. В модуле постобработки сигнала традиционно используются статистические 
методы, основанные на скрытых марковских моделях (СММ) [3]. Но, несмотря на 
относительно хорошие результаты, они обладают недостатками. Главная проблема за- 
ключается в том, что СММ не адекватны природе речевого сигнала (речевой сигнал 
нельзя рассматривать как стационарный случайный процесс, удовлетворяющий предпо- 
ложению о марковости 1-го порядка). 

С другой стороны, в 50-60-х годах ХХ века были проведены обширные исследо- 
вания в области фонологии и восприятия речевых сигналов человеком. Были предло- 
жены системы классификации звуков речи по т.н. различительным признакам (которые 
впоследствии не нашли применения в АСРР) [4-7]. Данные признаки связаны с кон- 
кретными особенностями спектра звука речи и его изменения во времени. Основная 
идея и цель статьи заключается в отказе от исключительно статистического модели- 
рования речевых сигналов и дополнительном нечетком моделировании речевых сегмен- 
тов на основе фонологических различительных признаков. Для этого в статье предлагаются 
алгоритмы вычисления соответствующих признаковых характеристик и их фаззификации. 


Фонологическая признаковая классификация фонем 


Ограниченные возможности спектрально-временных методов распознавания зву- 
ков речи побудили к поискам методов распознавания с использованием фонологических 
различительных признаков. Наиболее известна классификация Якобсона, которая была 
предложена первой [5]. В соответствии с ней выделяются 12 бинарных признаковых 
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классов звуков. Каждый звук речи (фонема) может иметь данный признак (принад- 
лежать соответствующему признаковому классу, +) или не иметь (не принадлежать, —). 
В этой классификации выделены основные акустические признаки, на основе которых 
формируются важнейшие звуковые противопоставления. Каждый из 12 признаков пред- 
ставляет собой противопоставление между двумя относительными проявлениями 
одного и того же акустического свойства [6]. Одной из особенностей данной системы 
признаков является то, что для описания гласных и согласных звуков используется 
один и тот же набор признаков. Этот набор включает следующие признаки [6]: 

1. Гласный / негласный (гласные звуки акустически характеризуются четко 
выраженной формантной структурой). 

2. Согласный / несогласный (согласные звуки имеют более низкий общий 
уровень интенсивности). 

3. Прерванный / непрерывный (у прерванных согласных акустически выражен ин- 
тервал отсутствия или сильного ослабления звуковой энергии в полосе частот выше основ- 
ного тона, после которого следует «взрыв» или резкое изменение формантной картины). 

4. Глоттализованный / неглоттализованный (глоттализованные согласные характе- 
ризуются резким включением интенсивного источника шума). 

5. Резкий / нерезкий (в основе признака лежат относительные различия в интен- 
сивности, длительности и степени упорядоченности фрикативного шума, т.е. своего 
рода шкала шумности. Резкие согласные имеют интенсивный и длительный шум). 

6. Звонкий / глухой (звонкие звуки произносятся с участием голосового источника). 

7. Компактный / диффузный (компактные звуки характеризуются большей кон- 
центрацией энергии в относительно узкой серединной (у диффузных — краевой) 
части частотного диапазона спектра, большей интенсивностью и длительностью). 

8. Низкий / высокий (к низким (низкотональным) относятся звуки, у которых 
энергия сосредоточена в более низких частотах, чем у высоких (высокотональных)). 

9. Бемольный / простой (у бемольных звуков частоты всех формант понижаются 
и энергия высокочастотной области спектра ослабляется). 

10. Диезный / простой (у диезных вокальных звуков увеличиваются частоты нижних 
формант и возрастает интенсивность по сравнению с простыми (недиезными) звуками). 

11. Напряженный / ненапряженный (напряженные звуки характеризуются боль- 
шей длительностью, большей интенсивностью, более отчетливым и богатым спектром). 

12. Носовой / ртовый (у носовых звуков, образуемых с участием носового резо- 
натора, в спектре появляются устойчивые, мало изменяющиеся форманты назали- 
зации (200..300 Гц)). 

Однако наиболее исчерпывающая работа в области фонологической классифи- 
кации была проведена Вайреном и Штубсом, которые предложили электронную схему 
бинарной селекции звуков (рис. 1). Данная схема уточняет схему классификации Якоб- 
сона и в большей степени соответствует реальным фонологическим данным [4]. 

Согласно этой схеме, звуки сначала делятся на глухие и звонкие. Это разде- 
ление производится по признаку наличия (для звонких звуков) или отсутствия (для 
глухих) основного тона. Далее звонкие делятся на шумовые и нешумовые. Это раз- 
деление производится по интенсивности спектра в области первой форманты: шумо- 
вые имеют большую интенсивность в высокочастотной области. Глухие, в свою 
очередь, делятся на взрывные и шипящие. Это разделение производится по уровню 
энергии сигнала на начальном участке звука. Из остальных блоков классификации 
были разработаны только блок разделения сонорных и блоки разделения гласных. 
Работа указанных блоков основана на принципе сравнения уровней спектра в раз- 
личных областях частотного спектра [7]. 
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Рисунок 1 — Схема Вайрена — Штубса бинарного разделения звуков 
на признаковые классы 


Переход от бинарной классификации звуков к нечеткой 


Бинарный подход к признаковой классификации звуков речи обладает главным 
недостатком: при ошибочном срабатывании одного из блоков вся дальнейшая цепочка 
вычислений оказывается неверной и бессмысленной. И если вероятность правильного 
разделения звуков на «звонкие» и «глухие» (блок 1) довольно высока (95%, согласно [4]), 
то удовлетворительное разделение звуков на «гласные» и «сонорные» (блок 4) прак- 
тически оказывается проблематичным. По мнению авторов статьи, для определения 
признакового класса фонемы целесообразно рассчитывать степени соответствия теку- 
щего речевого образа каждому из признаковых классов, на всех уровнях, и прини- 
мать окончательное решение на основе всей информации. 

Для нечеткой классификации фонем необходимо ввести числовые величины, ха- 
рактеризующие акустические свойства выраженности того или иного различительно- 
го фонологического признака, а также разработать процедуры фаззификации для каждого 
признакового класса на основе данных величин. Для этого были изменены и уточнены 
процедуры анализа спектров, предложенные Вайреном и Штубсом. Таким образом, в на- 
шей классификационной системе признак звонкости (блок 1), к примеру, представлен не 
в виде «Фрейм Х: звонкий — да, глухой — нет», а в виде 2 нечетких переменных: 


< Звонкий, { х, Извонкий (х) } >, < Глухой, { Хх, Итлухой (х) } >. (1) 


Далее приводятся формулы для расчета акустических характеристик признаковых 
классов и получения на основе их степеней принадлежности и текущей фонемы 
конкретному классу. 

Мера звонкости фонемы. В блоке 1 на рис. 2 происходит разделение звуков на 
звонкие и глухие. Для построения нечеткой модели введем меру звонкости. Эта вели- 
чина должна отражать степень выраженности частоты основного тона (ЧОТ) и ее гар- 
моник в спектре звука. ЧОТ представляет собой частоту колебаний голосовых связок. 
При образовании вокализованных звуков речи воздушный поток проходит через колеб- 
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лющиеся голосовые связки, поэтому в их спектре четко видна частота основного тона и 
ее гармоники. На невокализованных участках речи основной тон отсутствует. 

В работе ЧОТ выделяется на основе спектра фрейма с помощью следующего 
алгоритма. Находятся локальные пики в спектре, в интервале частот 100 - 450 Гц 
(диапазон голосов от низких мужских до высоких женских). Рассматриваются 
только те пики, амплитуда которых превышает порог @: 


М№ = { уу [ Уо Е [100;450] ^ /(\0)> 9}, (2) 


где уу — частота, на которой наблюдается пик в спектре; (у) — значение амплитуды на 
частоте у в спектре. Для каждой пиковой частоты уу из множества М вычисляется 
значение: 


5.) Ув У(&-и,)), УиеМ, (3) 


где ВМ — число анализируемых гармоник основного тона; А — номер предполагаемой 
гармоники основного тона. Сумма (3) характеризует степень выраженности гар- 
моник конкретной ЧОТ. Частота уу, дающая максимальную сумму (3), полагается 
частотой основного тона: 


аго тах 5 (у ‚МО 
во_ [м8 мах (м) М ы 
0 АЕ О 
Мера звонкости (УосаШу Меазиге, УМ) выражается формулой: 
ВМ 
УЛ. Е0>)-иЕ-Е0>) 
= 
1 Эм 
У Л. ЕО). ик. Е0) 
= 


0 ‚ РО=0 


УМ - ‚ Е0>о , (5) 


где Ро - ЧОТ; 20, = 20+ 9 — частота, смещенная относительно ЧОТ на половину 
2 

(в спектре вокализованных звуков на этой и кратной ей частотам наблюдаются про- 

валы); ВМ — число анализируемых гармоник основного тона; (у) — весовая функция 

(значения весов для разных частотных диапазонов спектра приведены в табл. 1). Чем 

сильнее проявляется основной тон и его гармоники, тем ближе величина УМ к 1. 


Таблица 1 — Весовые коэффициенты для расчета акустических характеристик фонем 


Частотные 100—700 | 700 — 1500 | 1500-2500 | 2500-4000 | 4000 — 7000 
> 7000 Гц 
диапазоны Гц Гц Гц Гц Гц 
ВЕОВЫе 1 14 18 2.0 23 25 
коэффициенты 


Определим на основе меры звонкости нечеткое множество «Звонкий звук» с 5-0б- 
разной функцией принадлежности (график функции принадлежности показан на рис. 2а): 


0, х<0 
им Ум. мым), Им) =3х,0<х<1. (6) 
| | Ьх>1 


Мера согласности фонемы. В схеме Вайрена— Штубса, в отличие от схемы 
Якобсона, отсутствует признаковый класс «Согласные», однако в нашей классифика- 
ционной схеме он используется как вспомогательный признак. Мера согласности (СМ, 
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Сопзопаптез$ Меазиге) должна отражать относительную интенсивность участка ре- 
чи [4], [7], поэтому предложено для ее вычисления использовать формулу: 


аа (7) 
шах 
где Ре — энергия текущего речевого сегмента; ах — максимальная энергия сигнала 
в интервале речи между паузами, содержащем текущий сегмент. Энергия сегмента 
сигнала вычисляется по формуле: 
А+ 


Е(К, Г.) = т: 


(8) 


где К — позиция начального отсчета сегмента сигнала; Г — число отсчетов в сегменте 
(длительность); х;— значение 1-го отсчета сигнала. 

Введем на основе меры согласности нечеткое множество «Согласный звук» с 
5-образной функцией принадлежности (график функции принадлежности приведен 
на рис. 26): 


0. х<0,2 
х-0,2 

см =|см, ем(СМ), Исм (х) = бе’ 0,2 <х=0,8. (9) 
|й х> 0,8 


Константы 0,2 и 0,8 были подобраны экспериментальным путем. 


0 1 х 0 0,2 0,8 1 х 
а) 6) 
Рисунок 2 — Графики функций принадлежности нечетким множествам 
фонологических признаков 


Мера гласности фонемы. В блоке 4 на рис. 1 производится разделение нешум- 
ных звонких звуков на гласные и сонорные. Согласно фонологическим исследова- 
ниям, гласные звуки характеризуются четко выраженной формантной структурой 
(формантами называют специфические спектральные «подъемы» гласных). Данное 
определение довольно размыто; кроме того необходимо дополнительно производить 
формантный анализ фонем, т.к. разные фонемы имеют разные форманты. В статье 
предлагается мера «выраженности» формантной картины спектра речевого фраг- 
мента (ЕМ, “Еогтаптез$” Меазиге): 


14-240 


ши 1 > Ух 


&[200;1000] 


авы НА _ (10) 


14-240 


пах 2. ХО) хих у) 


Е[200;1000] 


где /(/) — значение амплитуды на частоте ] в спектре; и’(/) — весовая функция (зна- 
чения весов для разных частотных диапазонов спектра берутся из табл. 1). Смысл 
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формулы (10) заключается в том, что в частотном диапазоне [200Гц; 1000Гц] нахо- 
дится минимальный и максимальный по амплитуде диапазоны шириной 240Гц (средне- 
статистическая ширина форманты), и чем меньше их отношение, тем ярче проявлены 
«провал» и «подъем» в спектре. На основе характеристики ЁЕМ строится нечеткое мно- 
жество «Формантный»: 


0, х<0 
ЕМ| РМ, и(ЕМ), Ири(х)=1х,0<х<1. (11) 


 х>1 
Нечеткое множество «Гласный» определяется как: 


СМ =СМ СЕМ. (12) 


Мера шумности звонкого. В блоке 2 на рис. 1 производится разделение звон- 
ких звуков речи на шумные и нешумные. В [7] шумные выделяются по признаку 
большей интенсивности в высокочастотной области спектра, по сравнению с об- 
ластью первой форманты. Однако проведенные авторами статьи эксперименты пока- 
зали ненадежность указанного способа, т.к. «шумные» согласные необязательно имеют 
большую энергию в высокочастотной области спектра, в то время как «нешумные» 
гласные, наоборот, могут иметь некоторый шум. В связи с этим было предложено исполь- 
зовать информацию о звонкости и гласности фонемы (формулы (5) и (9)). Нечеткое 
множество «Шумный» определяется как: 


ММ = УСМ ИМ - (13) 


Мера сибилянтности. В блоках ЗА и ЗВ на рис. 1 происходит разделение звуков 
на взрывные и шипящие. В [7] это разделение производится по уровню энергии сигнала на 
начальном участке звука. Однако выделить автоматическим образом начальный 
участок произвольного звука довольно проблематично, а чаще всего невозможно 
(перед началом анализа система не имеет никакой информации о том, какая именно 
фонема звучит). С другой стороны, шипящие (сибилянтные) звуки имеют легко уз- 
наваемый вид спектра — наличие шума в довольно широком диапазоне высокочас- 
тотной области. В связи с этим в работе предлагается следующая мера сибилянт- 
ности звука (ВМ, $161апсе Меазиге): 


У (хи) 
5ВМ =1- 40 (14) 


8000 


У Охи р 


1=1000 
где /(/) — значение амплитуды на частоте / в спектре; *(/) — весовая функция (зна- 
чения весов для разных частотных диапазонов спектра берутся из табл. 1). 
На основе характеристики 5ВМ строится нечеткое множество «Сибилянтный»: 


0, х<0 
вм |58М. мым (ВМ). Извм (Хх) = 1х, 0 <х<1. (15) 
| | ат 


Меры диффузности, высотности, назальности. Работа блоков 7А, 7В, 8 и9 
на рис. | основана на принципе сравнения амплитуд в различных областях частот- 
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ного спектра. В качестве числовых характеристик, отражающих акустические особенно- 
сти каждого из этих признаков, в статье вводятся мера диффузности (ОМ, О зепез$ 
Меасиге), мера высотности (АСМ, Асщепез$ Меазиге) и мера назальности (ММ, МазаЩу 
Меазиге). Все предлагаемые меры имеют общий вид: 
ЕМН 
> Л@)-м@) 


М (ЕМЕ ‚ЕМН ‚ЕБЕ ,ЕБН ) = ЕЁ , (16) 


> Ле и) 


7=ЕРЕ 


где /(/) - значение амплитуды на частоте / в спектре; "(И - 1-й вес (значения весов 
для разных частотных диапазонов спектра берутся из табл.1); ЕМЕ, ЕМН, ЕОЕ, ЕРН -— 
параметры, которыми отличаются три введенные меры, и представляющие собой 
границы анализируемых частотных диапазонов спектра. 

Значения ЕМГ, ЕМН, ЕОГ., ЕБН приведены в табл. 2. 


Таблица 2 — Границы частотных диапазонов для мер ОМ, АСМ, №М 


Границы диапазонов ЕМЕ (Гц) ЕМН (Гц) ЕБГ. (Гц) ЕБН (Гц) 
ОМ 220 380 340 1100 
АСМ 2400 3700 800 1200 
М№М 220 340 450 550 


На основе мер ОМ, АСМ и № М вводятся нечеткие множества «Диффузный», 
«Высокий» и «Носовой» соответственно. Каждое из них имеет 5-образную функцию 
принадлежности (рис. 2а). 


Аккумуляция выходных нечетких значений блоков 


Заметим, что выше были определены нечеткие множества, связанные с одним фоно- 
логическим признаком каждого из блоков | - 9 в схеме Вайрена — Штубса. Но блоки 
имеют два выхода, поэтому необходимо также определить нечеткое множество для 
альтернативного признака. В работе второе нечеткое множество строится путем нечет- 
кого отрицания первого. Например, нечеткое множество «Нешумный» (блок 2) является 
отрицанием (нечетким дополнением) нечеткого множества «Шумный». Отметим также, 
что в общем случае два выходных нечетких множества блока могут быть не связаны 
между собой и строиться на основе разных акустических характеристик. 

В соответствии с нашей схемой нечеткой классификации звуков речи по признакам, 
выходом каждого блока на рис. | являются значения функций принадлежности нечет- 
ким множествам двух выходных признаковых классов блока. Эти значения вычисляются 
автономно для каждого блока и могут быть использованы по отдельности, однако не- 
обходим также комплексный анализ работы блоков, входящих в одну «цепочку». Для 
расчета функций принадлежности нечетким множествам финальных блоков (блоки 3, 5, 
6, 7, 8 на рис. 1) используются следующие альтернативные операции: 

1) алгебраическое пересечение (произведение) М нечетких множеств в степени 

ИМ: 


сэ Пи о) (17) 


216 «Искусственный интеллект» 32010 


Применение нечеткой логики в системах фонологической классификации звуков речи к К 


2) модифицированный вариант алгебраического объединения М нечетких мно- 
жеств: 


1 м 
НА(%) = 2. НА, (18) 


где А - нечеткое множество выходного признака финального блока; Ау,...,Ам — 
нечеткие множества выходных признаков М блоков, входящих в цепочку с финаль- 
ным блоком А; х; — значение акустической меры, используемая для вычисления 
степени принадлежности множеству А;. Нормировка на М в обоих случаях вводится 
в связи с тем, что разные цепочки включают разное количество блоков. 


Результаты экспериментов 


Для экспериментов использовались файлы речевой базы УохЕогее [8] и инстру- 
ментальная среда анализа речевых файлов, разработанная авторами [9]. Всего обрабо- 
тано 25 файлов, содержащих предложения, сказанные 3 дикторами (голоса с ЧОТ 
в диапазоне 100 — 200Гц). Общее количество проанализированных фонем - 412. 

Для оценки качества нечеткой классификации и предлагаемых в статье акусти- 
ческих мер использовалась величина «разброс выходных нечетких значений блока»: 


А (А, В, х) = АС) -ивС), (19) 


где А - нечеткое множество первого выходного признакового класса блока; В — нечет- 
кое множество второго выходного класса; х — значение акустической меры, используе- 
мой в блоке для разделения признаков. Стоит отметить, что гипотезой в данном случае 
является утверждение «текущий фрагмент х принадлежит признаковому множеству А». 
Таким образом, величина Ди может находиться в пределах от 1 (в случае, когда степень 
принадлежности величины х множеству А равна 1, а множеству В - 0) до -1 (в про- 
тивоположном случае). Статистика разностей (19) для отдельных признаковых классов 
позволяет оценить качество разделения звуков речи на данные классы. В табл. 3 при- 
ведены значения математического ожидания, дисперсии, медиан показателя разброса 
выходных нечетких значений блоков 1 —9 (рис. 1). 


Таблица 3 — Статистические показатели (среднее, дисперсия, медиана) вели- 
чины АИ 


Блок МАн БАК тед Ан Блок МАн БАК тед Ан 
1 0,59 0,21 0,72 6 0,57 0,1 0,58 
#: 0,53 0,12 0,6 7 0,49 0,08 0,48 
3 0,55 0,16 0,68 8 0,54 0,13 0,51 
5 0,52 0,08 0,54 9 0,74 0,1 0,84 


Из табл. 3 видно, что автономная работа блоков дает вполне удовлетворительные 
результаты. Лучше всего разделяются звуки речи (большие значения Ли) в блоке 9 
(«Высокий» / «Низкий»). При этом дисперсия показателя разброса выходных нечетких 
значений блока 9 невелика (равна 0,1), и половина значений находится выше величины 
0,84 (медиана). Кроме того, в остальных блоках средние значения Аи также вполне 
удовлетворительны; они находятся в диапазоне [0,49, 0,59]. При этом значения дис- 
персий тоже относительно невелики. В таблице не приведены результаты работы блока 4 
разделения звонких звуков на гласные и сонорные, т.к. в ходе экспериментов и теоре- 
тических исследований так и не было найдено адекватной акустико-фонетической ха- 
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рактеристики, на основе которой можно было бы с высокой степенью точности разгра- 
ничивать данные классы. Очевидно, для разделения звуков на эти классы необходим 
учет фонемного контекста и информации более высокого, лингвистического, уровня 
абстракции, и это является предметом дальнейших исследований. 

Как уже было отмечено, в цепочку классификации входит несколько блоков и для 
принятия окончательного решения о принадлежности текущего звука речи призна- 
ковому классу необходим анализ степеней соответствия (17) — (18). Для оценки качества 
аккумуляции нечетких выходных значений блоков цепочки использовался модифи- 
цированный вариант величины (19): 


А (А, В, х) = ил(х) - ив, (19) 


где А - нечеткое множество выходного признакового класса финального блока в 
цепочке (одного из блоков 3, 5- 8); В; — нечеткие множества выходных классов 
других финальных блоков. Значение и вычисляется по одной из формул (17), (18). 
Таким образом, показатель (20) позволяет оценить, насколько степень соответствия 
текущего речевого сегмента верному признаковому классу отличается от максималь- 
ной из степеней соответствия «чужим» признаковым классам. В табл. 4 приведены 
значения математического ожидания, дисперсии, медиан и интервала показателя 
(20), где Ди вычисляется по формулам (17) и (18). 


Таблица 4 — Статистические показатели величины Лу выходных блоков 3, 5, 6, 7, 8 


Блок | МАщ | ОАц: | шедАы | интервал | Блок | МА | ОАф» | тедАь» | интервал 
Э 0,01 0,08 0,07 1,12 ь 0,11 0,1 0,1 1,31 
ь. 0,01 0,02 0,01 0,32 5 0,17 0,05 0,18 1,09 
6 0,04 0,03 0,04 0,29 6 0,2 0,06 0,21 1,03 
Г. 0,05 0,01 0,02 0,25 7 0,19 0,03 0,14 0,62 
8 0,07 0,01 0,05 0,49 8 0,06 0,08 0,04 0,98 


В табл. 4 Ди! - показатель разброса степеней соответствия, вычисляемых по форму- 
ле (17); Аи›-— показатель разброса степеней соответствия, вычисляемых по формуле (18). 
Из табл. 4 видно, что в среднем величина Ли дает больший разброс, однако в обоих слу- 
чаях значения Ли относительно невелики (в среднем - от 0,01 до 0,19) с относительно 
большим интервалом (не менее 0,25). Данная ситуация была ожидаема, т.к. она подтвер- 
ждает проблемы, связанные с попытками точной (бинарной) классификации звуков речи. 
Однако в нашем случае положительным фактом можно считать, что средние значения 
Ан и медианы Ди больше 0.0. Кроме того, отдельные проблемы вызваны несоответствия- 
ми теоретических рекомендаций практическим наблюдениям. Например, в случае с бло- 
ком 3, фонема [в] часто не имела спектр, характерный для шипящих звуков. Таким 
образом, перераспределение отдельных фонем по признаковым классам для большего 
соответствия акустическим мерам, введенным в работе, может в дальнейшем улучшить 
показатели разделения. 


Выводы 


Проблема параметризации речевого сигнала в контексте создания АСРР актуальна 
и нуждается в решении. В статье показано, что современные методы параметризации 
речевых сигналов можно дополнить анализом различительных фонологических призна- 
ков звуков речи. Фонологические признаки, такие, как «звонкий», «гласный», «шипящий» 
и т.д., менее чувствительны к шуму и особенностям диктора, по сравнению с тради- 
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ционно используемыми кепстральными коэффициентами. Однако предложенные фоно- 
логами бинарные схемы широкой классификации фонем обладают недостатком категорич- 
ности: в ситуации плохой различимости звука он может быть отнесен к противоположному 
классу. Поэтому нечеткий подход к фонологической классификации, предлагаемый в 
работе, обоснован теоретически и практически. Как показали эксперименты, средние 
значения показателя разброса выходных нечетких значений блоков фонологической 
классификации вполне удовлетворительны; они находятся в диапазоне [0,49, 0,74] («пло- 
хими» значениями являются значения, меньшие либо равные 0.0). Значения медиан в 
большинстве случаев близки к значениям средних. При этом значения дисперсий тоже 
относительно невелики. Все перечисленное можно считать «благоприятной» статис- 
тикой для применения разработанных алгоритмов фаззификации на практике. 
Дальнейшая работа связана с разработкой и исследованием нечетких моделей, по- 
зволяющих определять степень соответствия текущего речевого сегмента конкретной фо- 
неме, на основе нечеткой информации как «признакового» уровня, так и «кепстрального». 
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Застосування нечтко! лойки в системах фонологчно! класифкацй звуюв мовлення 

Стаття присвячена питанню фонологчно! класифткаци звуюв мовлення за ознаками. Запроповано 
нечткий шдад класифкаци, зыдно з яким вихдн! значення класиф\кащйних блокв представляють 
собою нештк! величини. Запропоновано акустичн! характеристики, на основ! яких виповнюються 
процедури фазифлкаци. Наведен! результати експеримент!в роздлення фонем на класи. 


А.А. Кагот, Т.Г. папу 

Арр!ушсе е Еи727у Г.051с ш Ве Зу$етз о? РВопо|051са! С1аз$Шсайоп о? Зреесй Зоип 4$ 

ТБе агасе 1$ деущфе4 №ю Фе 1азК оЁ рВопо|о21са1 с1а551Ясайоп оЁ Фе зреесВ зоипаз Бу Ееабгез. ТВе поуе! 
Ёа7ху арргоасЬ 0 Фе с1аз5\сайоп 15 оНеге4, ассог4те ю \ЫсЬ Фе ошёрий уаез оР Фе с1аз5Шсайоп 
ЫоскК$ аге а7ту уаез. ТВе асочзИс сВагасепзЯс$ Юг 1е Ё1771Исайоп ргоседигез аге оЁеге4. Те геи 
ог ехрегипещ5 оЁ 1е с!а5$ @15сгиитайоп оЁрВопетез аге глуеп. 
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